Démo vocodeur¶

UnivNet, échantillonnage 24 kHz, configuration originale¶

La meilleure qualité qu'on peut atteindre en recréant une voix de manière synthétique est limitée par le vocodeur, qui est la composante chargée de produire le son final. Ici on démontre quelle qualité pourrait être atteinte dans les meilleures conditions en utilisant le vocodeur UnivNet (version c32), entraîné sur 192 heures de parole lue (sous-ensemble train-clean-360 de LibriTTS).

Le signal est produit avec une fréquence d'échantillonnage de 24 kHz plutôt que 48 kHz pour que la quantité de données et les calculs nécessaires restent raisonnables.

Traitement illustré¶

À partir d'un audio original, par exemple test_waves/Salvage_Hunters_S03_Ep21_short.wav:

Your browser does not support the audio element.

On extrait une représentation simplifiée, sous forme de spectrogramme:

Le vocodeur recrée l'audio en se basant uniquement sur cette représentation.

Dans la conversion de voix, on va modifier la représentation pour changer l'identité du locuteur, ce qui va introduire des distorsions supplémentaires. Ici, en utilisant la représentation intacte, sans appliquer de conversion, on peut vérifier quels résultats pourraient être obtenus si la représentation était modifiée de façon optimale par la conversion de voix:

Your browser does not support the audio element.

Autres exemples¶

Pris au hasard parmi les séries, donc de la parole qui n'est pas lue, contrairement aux données d'entraînement.

Original                                 Reconstructed                           
KillerClowns_S01_EP01_short.wav          KillerClowns_S01_EP01_short_reconstructed_epoch0288.wav
Original                                 Reconstructed                           
KillerClowns_S01_EP01_long.wav           KillerClowns_S01_EP01_long_reconstructed_epoch0288.wav
Original                                 Reconstructed                           
Mayday_S07_Ep54_short.wav                Mayday_S07_Ep54_short_reconstructed_epoch0288.wav
Original                                 Reconstructed                           
TedBundyTheSurvivors_EP01_short.wav      TedBundyTheSurvivors_EP01_short_reconstructed_epoch0288.wav
Original                                 Reconstructed                           
TedBundyTheSurvivors_EP01_long.wav       TedBundyTheSurvivors_EP01_long_reconstructed_epoch0288.wav
Original                                 Reconstructed                           
Salvage_Hunters_S03_Ep21_short.wav       Salvage_Hunters_S03_Ep21_short_reconstructed_epoch0288.wav